梯度裁剪:在训练神经网络时,当梯度(参数更新的“方向与幅度”)过大,会导致训练不稳定甚至数值发散。梯度裁剪通过把梯度的大小限制在某个阈值内(常见做法是按范数缩放或逐元素截断),来提高训练稳定性,尤其常用于循环神经网络(RNN)等容易出现梯度爆炸的模型中。
/ˈɡreɪdiənt ˈklɪpɪŋ/
We used gradient clipping to stop the loss from blowing up.
我们使用梯度裁剪来防止损失函数突然发散。
During training, gradient clipping (by global norm) stabilized the recurrent model and allowed a larger learning rate without divergence.
在训练过程中,通过(全局范数)梯度裁剪稳定了循环模型,并使得在不发散的情况下可以使用更大的学习率。
gradient 源自拉丁语 gradiens(“行走、前进”),在数学与机器学习里指函数变化的“斜率/梯度”。clipping 来自动词 clip(“剪下、截短”),在信号处理与数值计算中常指把数值“截到一定范围内”。合起来 gradient clipping 直译为“把梯度剪到不超过某个界限”,强调对过大更新量的限制。